iT邦幫忙

第 12 屆 iThome 鐵人賽

DAY 25
0
AI & Data

時間管理大師-時間序列分析終極密技系列 第 25

[Day25]歲月不待人-異常值檢測之柴比雪夫不等式

  • 分享至 

  • xImage
  •  

柴比雪夫不等式

今天我們來講數學,我們來介紹機率與統計一個很有名的公式,柴比雪夫不等式,它長這樣

這公式不長,但也夠折騰人了,我們先說明一下柴比雪夫不等式的概念

不論以任何方式分布的數值,其大部分的數值都會非常接近平均值

相信已經有人可以想像為什麼柴比雪夫不等式可以幫助我們做異常值檢測,既然大部分的數值都會非常接近平均值,那麼那些少部分跟平均值差很多的數值,就是我們要找的異常值啦,為了瞭解這個公式,我們必須先了解一個高中學過的數學名詞標準差

標準差就是所有數值與平均值相差的平均程度

公式為

[3, 4, 5, 6, 7]
# 平均是5
# 標準差就是 1.58

[3, 4, 5, 6, 7]
# 平均是5
# 標準差就是 3.16

可以看出上方兩條列表平均都是5,可是下面那條列表的標準差卻比上面大,說明了下面那條列表比較不接近平均值,接著我們可以來看柴比雪夫不等式的涵義了,究竟大部分接近平均值的數值是多少,接近又有多接近,我們可以看下面描述

  • 與平均相差2個標準差以上的值,數目不多於1/4
  • 與平均相差3個標準差以上的值,數目不多於1/9
  • 與平均相差4個標準差以上的值,數目不多於1/16
  • 與平均相差k個標準差以上的值,數目不多於1/k*k
    那麼在進行異常值檢測時,究竟要與平均相差多少倍標準差才能算異常值呢,這個就是由開發者自行決定的參數啦,以資料的特性來決定,舉個例子,以全年均溫來說,屏東不論是冬天還是夏天都差不多熱,因此只要某個溫度數值與平均相差了2倍標準差,就算是很異常的數值了,但是在日本夏天可能會有30度,但冬天只有-10度,因此對日本人來說,某個溫度數值與平均相差了2倍標準差是一件很正常的事。
    那麼這樣又會再衍生出第二個問題,屏東這種不論是冬天還是夏天都差不多熱的地方,是可以直接做柴比雪夫不等式異常值檢測的,但是在日本,夏天某日的溫度數值是10度,很明顯就是異常值對吧,可是對柴比雪夫不等式異常值檢測來說,日本全年溫度在-10~30度都算合理範圍,因此夏天有一天降到10度很正常,這時候就會出現柴比雪夫不等式異常值檢測失效,解決辦法就是切割成多個區間來進行檢測,例如,日本的正常氣溫範圍應該如下,12~2月在-10~12度、3~5月在13~25度、6~8月在26~35度、9~11月在13~25度,這樣就可以更精確的做出異常值檢測了
    明天我們會以程式碼來進行示範

上一篇
[Day24]踏破千世笑紅塵-教你當緝毒犬,異常檢測
下一篇
[Day26]我的田畝是時間-撲朔迷離的空值
系列文
時間管理大師-時間序列分析終極密技30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言